Abstract
本文主要是想检测老年痴呆症,因为语义的缺失是一大症状。获得了96.8%的召回率。通过训练随机森林的分类器获得了0.74的F值(二元分类)。并且仅用了12个特征。
Introduction
AD在病情发展的过程中会出现语言的转变,并且这是可以检测得到的。这些变化包括句法复杂度的下降、找词困难和语义内容缺失,信息密度低(有语义的词在所有词中的比例),效率低。
结合上lexicosyntactic和acoustic features会获得81.9%的准确率。之前的文章没有会自动生成ICUs(information content unit)。这篇文章将会自动生成。
在正常的诊断过程中,医生会给出一幅图片,让患者口头描述,而每一幅图片都有对应的hsICUs(human-supplied information content units),根据患者描述中覆盖的hsICUs的数量来给它打分。
Methodology
Data
DementiaBank
自动生成ICUs
用recall来衡量自动生成的ICUs的性能。
首先训练一般的word vector。这里使用的是GloVe v1.2模型训练,使用的数据是Wikipedia 2014+Gigaword 5。分词使用NLTK v3.1。
只保留了名词和动词。
将出现在CT数据集中的词的词向量用上下文扩充,同样的出现在痴呆症数据集中的也用相同的方法扩充。于是各形成了不同的分布。
在这些分布上做k-means聚类,当k=10的时候实验结果最好,获得两个聚类模型Control cluster model和demential cluster model.
hsICUs的召回率
为了衡量自动生成的ICUs和人工标注的ICUs的匹配程度
为了衡量
Experiments
计算hsICUs的召回率,文章中定义了标注的hsICU的距离分数(不是简单的欧几里得距离)。有些不同的hsICUs会被关联到同一个类中。在C和D中各生成了10个类,然后这之间要做对齐。
实验证明,健康人说的话题,患者都有提到,而又一个患者的话题是健康人所没有提及到的,因此可以看到两个群体在所说的话题上区别很小。
Local context weighted vectors
$\phi_w = v_w+\sum_{i=-N}^{-1}\alpha_i \times v_i + \sum_{i=1}^{N} \alpha_i \times v_i$
对于两个数据集中的word vector需要进行扩充,使用的公式就是上面的这个公式,将前后若干个词按照距离权重加到中心词的general word vector上。从而形成新的word vector。作者用这个方法来说明词在两个数据集中的上下文是差不多的。于是在最后的方法中是没有讲上下文加入到词向量中的。
当使用扩展的特征集的时候,没有进行context扩展的词向量拥有更好的表现。
1 | In our data, we also found that speakers with and without Alzheimer’s dis- ease generally discuss the same topics and in the same contexts |
Classification
最后的分类的特征有
- 到C0-C9的距离
- 到D0-D9的距离
- idea密度
- idea效率